# 大类：知识产权
# 小类：网站备案

import time


# 26-网站备案-2018-12-09
def get_site(mongo_instance, soup, cid, company):
    print('start 网站备案数据*******')

    if soup.find('div', id='_container_icp'):
        for tr in soup.find('div', id='_container_icp').find('tbody').find_all('tr'):
            item = {}
            tds = tr.find_all('td')
            item['beian_date'] = tds[1].text  # 审核时间
            item['site_name'] = tds[2].text  # 网站名称
            item['home_url'] = tds[3].text  # 网站首页
            item['domain'] = tds[4].text  # 域名
            item['benan_code'] = tds[5].text  # 备案号
            item['status'] = tds[6].text  # 状态
            item['type'] = tds[7].text  # 单位性质
            item['create_at'] = int(time.time())  # 创建时间，我们自己维护的一个东西
            item['update_at'] = item['create_at']  # 更新时间，我们自己维护的一个东西，此处的逻辑待优化
            item['company'] = company  # 公司名称，便于后续查找
            item['company_id'] = cid  # 公司id，便于后续查找

            print(item)
            mongo_instance.site.update({'company_id': cid}, item, True)
    print('success 网站备案数据*******')
